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以 ChatGPT 为 代表 的 GPT 生 成 式 大 模型 发 展 日 益 送 过， 引起 了 学 界 和 业界 的 广泛 讨论 ， 对 基础 科研 的 


发 展 带 来 了 难以 估量 的 影响 。 文 章 首 先 梳 理 了 GPT 技 术 革 命 的 发 展 历程 ， 并 讨论 了 该 技术 在 科学 研究 中 带 来 
的 新 变革 。 然 后 ， 基 于 应 用 牵引 、 原 理 驱 动 、 创 新 主体 迁移 3 个 视角 ， 讨 论 了 GPT 技 术 革 命 对 基础 科学 研究 


带 来 的 影响 及 对 我 国 的 发 展 建议 。 研 究 认 为 GPT 技 术 固然 可 以 对 知识 生产 、 科 学 研究 等 方面 发 挥 积 极 作用 ， 
甚至 促进 科研 范式 变革 ， 但 也 可 能 造成 科研 不 端 、 削 弱 研 究 可 信 度 、 放 大 互联 网 固有 偏见 、 知 识 产权 “ 卡 脖 
子 ” 等 问题 。 因 此 ， 本 研究 最 后 讨论 了 如 何 基于 GPT 技 术 发 展 我 国 的 基础 科学 研究 ， 明 确 在 投资 与 研发 国家 
自主 可 控 、 受 知识 产权 保护 的 数据 与 计算 平台 的 同时 ， 鼓 励 人 机 协作 与 科研 诚信 监管 并 重 ， 为 人 工 智能 
(Al) 推动 基础 科学 发 展 营 造 公开 透 明 的 环境 。 本 研究 旨 在 为 政策 制定 者 、 一 线 研 究 工 作者 理解 GPT 技 术 对 
于 基础 科学 的 影响 提供 理解 视角 ， 推 进 GPT 技 术 的 合理 使 用 ， 并 为 未 来 学 术 生 态 的 健康 发 展 提 供 参 考 。 
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DOI 10.16418/j.issn.1000-3045.202305 12003 
CSTR  32128.14.CASbulletin.202305 12003 


fi 


UE UK oN fie 4 AAA A SL TAS BALE RE REP PRE, ERE Tbe 
FF。 以 ChatGPT 模 型 为 代表 的 GPT 技 术 的 出 现 ,， 对 学 ”方面 进步 的 步伐 , 重要 性 不 言 而 喻 。 目 前 ， 在 基础 科 


术 、 教 育 及 产业 界 均 带 来 了 变种 。 基 础 科研 领域 的 发 ”学 研究 领域 ， 基 于 GPT 技 术 的 研究 已 产生 较 多 突破 性 
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成 果 ， 大 语言 模型 技术 在 辅助 科研 人 员 进 行 研发 工作 
或 理解 基础 科学 问题 的 同时 ， 也 在 改变 甚至 颠覆 基础 
科研 生态 。 因 此 ， 对 于 我 国 而 言 ， 合 理 地 促进 GPT 技 
术 在 科研 中 应 用 ,不仅 意 味 着 科研 效率 的 提升 ， 更 意 
味 着 科研 “ 弯 道 超车 ”机 遇 的 到 来 。 

然而 ,也 有 男 一 部 分 学 者 在 表达 担忧 和 焦虑 ， 认 
为 GPT 技 术 虽 然 可 以 在 多 个 基础 研究 领域 极 大 地 提升 
科研 效率 ,但 它 需 要 被 合理 使 用 ， 而 不 能 被 滥用 ; 更 
有 学 者 认为 未 来 GPT 技 术 甚至 可 以 接管 整个 学 术 人 研究 
领域 。 那 么 ，GPT 技 术 在 基础 科学 研究 领域 的 应 用 现 
状 如 何 ? 影响 几何 ”在 研究 中 使 用 的 边界 和 隐患 在 哪 
里 ? 针对 这 些 问题 ， 目 前 学 界 尚 未 给 出 一 个 系统 性 的 
分 析 框 架 和 相关 讨论 。 为 此 ， 本 研究 立足 以 上 问题 ， 
构建 系统 分 析 框 架 ， 讨 论 GPT 技 术 对 于 基础 科学 研究 
的 潜在 影响 和 可 能 的 应 对 方法 ,助力 科学 研究 生态 的 
健康 发 展 。 


1 GPT 技 术 变 革 及 在 科研 中 的 应 用 


ChatGPT 在 自然 语言 处 理 方面 表现 出 来 的 性 能 已 
然 达 到 了 一 骑 绝 尘 的 地 步 ， 要 想 进一步 理解 ChatGPT 
具备 如 此 优越 性 能 的 缘由 ， 需 要 了 解 GPT 家 族 模 型 的 
发 展 路 径 (图 1) M, 

初代 GPT 模 型 采用 无 监督 预 训练 与 有 监督 微调 相 
结合 的 研究 范式 ， 着 重 训练 一 个 无 监督 预 训练 语言 模 


型 ， 然 后 根据 具体 的 任务 有 监督 地 微调 模型 。GPT-2.0 
模型 的 研究 范式 同上 ， 改 进 点 为 通过 大 幅 提 升 训练 数 
据 量 和 模型 规模 在 有 监督 任务 中 实现 了 更 好 的 效果 。 
GPT-3.0P 模 型 采用 无 监督 预 训练 与 提示 工程 相 结合 的 
研究 范式 ， 即 训练 过 程 中 仅 提 供 少 量 示 例 即 可 完成 有 
监督 任务 。GPT-3.0 模 型 共 包含 3 个 版 本 ， 分 别 对 应 着 
不 同 的 参数 量 : 1750 亿 、130 亿 和 76 亿 。GPT-3.5 为 
GPT-3.0 的 升级 版 ， 是 一 系列 以 GPT-3.0 为 基础 的 改进 
模型 (包括 code-davinci-002 模 型 等 )， 通 过 评价 模型 
的 问答 表现 和 奖惩 措施 进行 优化 更 新 而 来 。ChatG- 
PTB 则 是 在 GPT3.5 基础 上 引入 了 基于 人 类 反馈 的 强 
化 学 习 (RLHF) 外 和 近 端 策略 优化 算法 (PPO) 进行 
微调 ， 利 用 偏好 作为 奖励 信号 来 微调 模型 ， 由 此 生成 
的 回复 符合 人 类 的 偏好 口 。 最 后 ，GPT-4.0% 是 在 GPT- 
3.5 版 本 的 基础 上 将 文字 到 多 模 态 的 连通 变 成 了 现实 。 
总 而 言 之 ，GPT 系列 模型 的 成 功 标 志 着 人 工 智能 
(AL) 从 以 专用 小 模型 训练 为 主 的 “手工 作坊 时 代 ” 
迈 入 到 以 通用 大 模型 预 训练 为 主 的 “工业 化 时 代 ”， 
成 为 AI 发 展 的 分 水 岭 [。 


2 GPT 技 术 革 命 对 基础 科学 研究 的 影响 


大 语言 模型 的 卓越 性 能 为 基础 科学 研究 带 来 了 
广泛 的 应 用 前 景 ， 能 够 在 众多 科学 研究 场景 中 应 用 或 
研发 了 一 系列 领域 大 语言 模型 。 文 昔 将 从 应 用 牵引 、 


无 监督 预 训练 + 提示 工程 


hk 1:1 75012; RAE 2:130 12; 
版 本 3:76 亿 
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Al GPT 技 术 的 发 展 历程 
Figure 1 Development history of GPT technology 
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原理 驱动 、 创 新 主体 迁移 3 个 视角 分 析 GPT 技 术 变 革 
对 基础 科研 的 影响 (图 2)。 
2.1 应 用 牵引 及 其 影响 

包含 GPT 模 型 在 内 的 大 语言 模型 带 来 了 一 系列 的 
技术 革命 ， 同 时 也 在 牵引 着 基础 科学 领域 中 科学 难题 
的 突破 ， 成 为 加 速 科研 进程 ， 提 高 科研 效率 的 助 
推 器 。 
2.4.1 应 用 率 引 的 3 个 模式 

按照 由 低 到 高 的 能 力 层次 ， 可 将 GPT 技 术 在 基础 
科学 研究 中 的 应 用 分 为 3 个 模式 (图 3)。 

(1) 工程 化 应 用 。 该 模式 主要 是 增加 GPT 模 型 的 
对 外 接口 ， 将 其 作为 通用 的 科研 数字 助手 ， 协 助 科 学 
研究 的 日 常 工作 流程 ， 提 升学 术 效 率 。 以 中 国 科学 院 
研发 的 成 果 为 例 ，GPT 衍 生 模 型 的 工程 化 应 用 案例 如 
表 1 所 示 。 

(2) 学 科 科 研 创 新 的 助力 。 该 模式 主要 基于 领域 


图 2 GPT 技 术 变 革 对 基础 科学 研究 影响 的 全 景 图 
Figure 2. Panorama of impact of GPT technological change on 


fundamental scientific research 


数据 库 微调 出 GPT 衍 生 模 型 (如 基于 和 蛋白质 结 构 数据 
库 打 造 的 Protein GPT?)， 提 高 模型 在 特定 科学 研究 任 
务 上 的 性 能 和 适 配 性 。 目 前 ，ChatGPT 的 表现 类 似 于 
通才 ， 在 细 分 的 专业 性 上 和 行业 中 比较 顶级 的 专家 还 
有 很 大 的 差距 。 将 ChatGPT 作 为 通用 AI 的 技术 基 座 ， 
通过 在 本 地 数据 库 中 进行 微调 ， 便 可 以 提升 模型 在 不 
同 领域 中 的 专业 性 ， 使 其 更 适用 于 解决 领域 场景 问 
题 ， 成 为 科学 假设 空间 的 探索 者 ， 目 前 已 有 一 些 探索 
性 研究 工作 〈 表 2)。 此 外 ，AI 推 动 基础 科学 研究 的 前 
提 还 在 于 AI 技术 理解 不 同学 科 基 础 知识 ， 提 升 多 元 知 
识 的 表示 和 融合 外 。 这 种 情况 下 ， 首 要 的 困难 是 专业 
领域 科学 家 与 AI 专家 的 相互 理解 程度 低 ， 彼 此 互相 促 
进 的 障碍 仍然 较 高 。 

(3) 科研 范式 变革 的 促进 。 目 前 ,“ 人 机 共生 ”的 
科研 场景 中 ， 根 据 机 器 的 智能 程度 由 低 到 高 将 机 器 分 
为 辅助 做 实验 的 “实验 员 ”， 辅 助 高 维 空间 计算 的 
“AI 科研 助理 "， 自 主 进 行 科研 全 流程 操作 、 突 破 人 类 
科学 家 认 知 瓶颈 的 “AI 科学 家 "”， 这 3 种 形式 各 有 侧 
重 ， 并 行 发 展 。GPT 技 术 主 要 在 后 2 种 角色 中 发 挥 作 


基础 能 力 的 工程 化 
论文 润色 
论文 翻译 


GPT 在 基础 
科学 研究 中 


的 应 用 论文 审阅 


生成 代码 
审 稿 意见 回复 


图 3 GPT 助力 科学 研究 应 用 现状 概念 图 
Figure 3 Conceptual map of application status of GPT assists 


scientific research 


(“生物 版 ChatGPT”, 才 是 医药 圈 最 值得 关注 的 黑 科技 ! . (2023-02-27)[2023-07-3 1]. https://www.drugtimes.cn/2023/02/27/sheng- 


wubanchatgptcaishiyiyaoquanzuizhideguanzhudeheikeji/. 
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表 1 GPT 行 生 模 型 的 工程 化 应 用 案例 
Table 1 Engineering applications of GPT-derived models 


工具 名 称 工具 作用 研发 机 构 

.辅助 科研 日 常 工作 :润色 论文 .中 英 互 译 、 解 析 项 目 源 码 \ 自 动 下 载 并 解析 Arxiv 和 谷歌 学 术 论文 、 中 国 科学 院 自动 化 研 
ChatGPT Academic 论文 摘要 生成 等 究 所 

论文 初 第 :从 论文 摘要 和 论文 引言 中 抽取 研究 背景 .过 去 实现 方案 及 其 对 应 的 缺点 ,从 论文 方法 下 关内 直上 人 党 
ChatPaper 中 抽取 该 文 的 解决 方案 及 其 具体 步骤 ,从 论文 结论 中 抽取 该 文 解决 方案 的 实现 效果 cane 
ChatReviewer ”论文 预审 稿 : 分 析 论 文 的 优 缺 点 ,提出 改进 建议 中 国 科学 技术 大 学 
ChatResponse ”论文 审 稿 意 见 回复 :针对 审 稿 人 的 提问 生成 点 对 点 的 回复 中 国 科学 技术 大 学 
Chatlmprovement 论文 润色 :对 论文 初稿 进行 润色 、 寻 找 语法 错误 、 中 英 翻 译 等 中 国 科学 技术 大 学 
ChatGenTitle 论文 标题 生成 :根据 论文 摘要 生成 合适 题目 中 国 科学 技术 大 学 


用 ， 即 “科研 范式 变革 促进 ”模式 主要 是 希望 突破 
“GPT 类 模型 构建 虚拟 世界 ”的 限制 ， 通 过 加 持 实 验 
类 的 物理 科研 设备 ， 以 “AI 科学 家 ”的 身份 自主 提出 
科研 假说 、 自 主 设计 实验 方案 、 自 主 验 证 假说 合理 
性 (图 4)。 

目前 ，GPT 技 术 与 物理 实验 设备 的 连接 主要 有 2 
种 方式 : GD 打通 自然 语言 和 机 器 指令 之 间 的 壁垒 ， 自 


动 生 成 机 器 人 操作 指令 。 已 有 研究 借助 GPT4 模 型 根 


据 自 然 语 言 的 实验 指令 自动 生成 一 种 实验 机 器 人 操作 
KS 〈OT2)， 指 挥 机 器 人 自动 进行 生物 学 实验 ， 极 
大 节省 了 考虑 机 器 操作 细节 编写 指令 的 时 间 59; O 打 
通 科研 假设 和 科学 实验 之 间 的 壁垒 ， 自 主 生成 实验 方 
和 案 。 例 如 ， 中 国 科学 技术 大 学 研发 的 GPT 衍生 模型 
Chem-GPT2， 通 过 借助 GPT 模型 “学 习 ”50 万 篇 化 
学 论文 之 后 ， 自 动 给 出 其 建议 的 化 学 实验 方案 ， 同 时 
驱动 机 器 化 学 家 “小 来 ”做 实验 ， 高 效 完 成 芬 顿 


“Al 科学 家 ”: GPT+ 
智能 设备 + 科研 


图 4 人 机 科研 场景 中 的 3 种 科研 范式 概念 图 


Figure 4 Conceptual diagram of three paradigms in the human-machine scientific research scenes 


(2) Chem-GPT 产品 介绍 . [2023-07-31]. http:/Avww.mdqtechnology.com/pinfo.php?class_id=102104103. 
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(Fenton) 催化 剂 等 化 学 品 和 新 材料 的 研发 问题 。 
2.1.2 应 用 模式 的 3 个 负 影响 

(1) 工程 化 应 用 模式 中 ， 不 可 避免 地 面临 科研 诚 
信 问 题 。 从 文本 语法 、 格 式 的 角度 来 看 ，ChatGPT 
一 个 好 的 “论文 制造 者 ”9。 然 而 ， 所 有 的 GPT 框 架 
产品 都 有 一 个 共同 特点 ， 即 制作 者 无 法 掌握 程序 内 部 
发 生 的 变化 ， 也 就 是 我 们 常 说 的 “ 黑 盒 ”。 由 于 模型 
参数 过 大 ，GPT 大 模型 会 不 可 控 地 产生 大 量 的 虚构 信 
息 。 此 外 ， 从 科研 伦理 的 角度 来 看 ， 原 创 性 是 一 篇 论 
文 的 根本 要 求 ， 用 ChatGPT 进行 论文 写作 ， 从 形式 上 
来 说 与 抄袭 无 蜡 。 更 让 人 担忧 的 是 ， 随 着 大 语言 模型 
的 发 展 ， 编 辑 、 出 版 商 将 很 难 分 辨 出 AI 代 写 的 文章 。 
因此 ， 如 若 对 ChatGPT 等 AI 技术 进行 误 用 和 滥用 ,将 
对 科研 诚信 产生 不 可 控 的 冲击 。 


faa 


+ 


ng 


(2) 科研 创新 模式 中 ， 模 型 透明 度 的 降低 削弱 了 
研究 可 信 度 。 目 前 ， 从 GPT-4 发 布 的 技术 报告 来 看 ， 
美国 人 工 智能 研究 公司 OpenAI 出 于 苋 争 与 安全 等 方 
面 的 考虑 ， 未 公布 模型 规模 等 技术 细节 ， 且 之 后 最 前 
沿 的 研究 也 趋向 于 不 再 发 布 相关 论文 开源 技术 的 细 
节 。 对 研究 者 来 说 ， 模 型 技术 细节 缺乏 透明 度 ， 不 仅 
是 与 开放 科学 的 趋势 背道而驰 ， 也 会 违背 科学 研究 求 
证 的 科研 态度 。 因 此 ， 如 果 继 续 使 用 GPT 开源 模型 或 
官方 提供 的 应 用 程序 编程 接口 (API) 学 习 领 域 数据 ， 
则 会 威胁 到 结果 可 复 现 性 5， 从 根本 上 削弱 研究 的 可 
信和 度 ; 同时 ， 无 法 从 根本 上 回答 重大 科学 研究 问题 的 
机 理 机 制 ， 进 而 无 法 有 根本 性 突破 。 

(3) 科研 范式 变革 模式 中 ， 基 于 开源 大 数据 训练 
的 GPT 技术 会 潜在 地 放大 固有 偏见 。 由 于 ChatGPT 的 


R2 GPT 衍 生 模型 的 科学 性 应 用 
Table 2 Scientific applications of GPT-derived models 
学 科 工具 名 称 工具 作用 研发 机 构 
to. 蛋白质 结构 预测 :150 亿 参 数 的 蛋白 质 序列 语言 模型 用 于 推断 完整 原子 级 的 蛋白 质 结 。 A 
ESMFold 构 ,预测 效果 超过 AlphaFold2 美国 Meta Al 公司 
ProtGPT203 蛋白 质 语言 生成 模型 :作为 自 回归 语言 模型 建 模 蛋 白质 序列 ,生成 稳定 结构 的 蛋白 质 HES MEAS 
— BE RUE SRR OEY Hy ABBA ER DL 60% 的 成 功率 一 键 生成 结合 、 、 
sey Poten GPT! ELIGE ERA OH UIRA EEIE 以 60% 的 成 功率 一 键 生成 结合 oe ee Am 
a Eo RSS LAD OB 12 亿 参 数学 习 “ 氨 基 酸 如 何 组 合成 2.8 亿 个 现 有 蛋白 质 ” Lc ye 
ve 的 语法 ,从 头 开始 生成 跨 多 个 家 族 和 功能 的 人 造 全 新 蛋白 质 
14] 提高 生物 医学 相关 信息 获取 的 效率 :通过 连接 国家 生物 技术 信息 中 心 (NCBI) 的 网 页 Se DALES 
Een 立 用 程序 编程 接口 (API) 回 答 基因 组 学 问题 美国 国立 卫生 研究 院 
计算 材料 科学 方面 应 用 :ChatGPT 可 能 在 生成 结构 、 计 算 材料 软件 编程 ,数据 可 视 3 — 
材料 x pe rem PE iid 浙江 大 学 
T 。 实验 方案 推荐 :通过 化 学 论文 数据 微调 训练 ChatGPT 模 型 ,回答 使 用 者 提出 的 化 学 间 yw， 、， as 
(UT  Chem-GPT" — 题 、 推 荐 相应 的 实验 方案 中 国 科学 技术 大 学 
sat 自动 读 取 X 射 线 影像 进而 生成 诊断 报告 :融合 ChatGPT 和 医学 图 像 计算 机 辅助 诊断 — 
[16] 7 VSR 
ee, “ChateAD (CAD) 模 型 ,提升 X 射 线 影像 诊断 报告 的 专业 性 上 海 科技 大 学 
" 万 。 提升 效 学 问题 的 多 步 推理 能 力 :通过 优化 提问 方式 ,提升 多 步骤 算术 运算 和 推理 的 能 Seer 
数学 MathPrompter ” 力 ,将 MultiArith 数 据 集 的 准确 率 提升 了 13.8% 美国 微软 公司 
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训练 数据 来 源 于 大 量 的 互联 网 数据 ， 其 中 不 可 避免 地 
记录 了 人 类 社会 潜在 的 疏 视 与 价值 对 抗 。 当 ChatGPT 
输出 明显 具有 偏见 的 研究 内 容 时 ， 不 仅 影响 研究 者 的 
判断 ， 更 可 能 因为 大 量 文本 的 广泛 传播 应 用 ， 加 深 研 
究 者 们 的 认 知 偏见 四。 此 外 ， 在 马 斯 克 联 名 几 千 位 计 
算 机 科学 家 的 请 愿 公 开 信 中 ， 罗 列 了 8 个 AI 危险 推测 
和 失败 模式 ， 包 括 人 类 衰弱 、 认 知 侵蚀 、 欺 骗 等 3。 
2.2 原理 驱动 及 影响 

基于 GPT 模 型 的 科学 研究 已 取得 较 多 突破 性 成 
果 。 例 如 ProGen 模 型 与 ESMFold 模 型 等 蛋白 质 语言 模 
型 在 蛋白 质 结构 预测 任务 中 表现 突出 ， 成 为 GPT 模 型 
在 科学 研究 发 展 史 中 一 座 座 里 程 碑 。 分 析 以 上 发 展现 
状 背 后 的 原理 、 特 点 及 其 未 来 的 发 展 ， 对 于 科研 人 员 
厘清 定位 和 科研 边界 具有 十 分 重要 的 启发 意义 。 
2.2.1 大 量 模型 参数 驱动 实验 计算 问题 的 高 维 空间 

拟 合 

GPT 类 大 模型 核心 还 是 Transformer 的 体系 结构 , 
之 所 以 能 在 基础 科学 研究 领域 表现 卓越 ， 本 质 还 是 通 
过 学 习 巨 量 的 领域 科学 数据 ， 借 助 大 量 模型 参数 对 实 
验 计算 问题 的 高 维 空间 进行 了 有 效 拟 合 。 换 言 之 ， 输 
出 的 仅 是 统计 学 上 的 可 能 性 ， 缺 乏 强 有 力 理论 知识 的 
支撑 。 

(1) 应 用 的 主 战场 为 数据 计算 密集 型 领域 的 高 维 
复杂 科学 问题 。 分 析 上 述 案例 可 以 发 现 ，GPT 技 术 在 
基础 科学 研究 中 应 用 的 主 战场 为 基础 科学 研究 中 的 实 
验 计算 领域 ， 即 在 分 子 生物 学 等 数据 积累 丰富 、 结 构 
化 程度 高 、 问 题 定义 清晰 的 实验 计算 领域 。 这 主要 是 
因为 GPT 技 术 在 基础 科学 研究 中 应 用 的 本 质 是 GPT 技 
术 的 高 维 建 模 能 力 和 科学 第 一 性 原理 的 结合 。 科 学 计 
算 希 望 做 的 是 从 第 一 性 原理 及 实验 观测 出 发 ， 将 不 同 
尺度 现实 世界 发 生 的 事情 映射 到 计算 模拟 的 世界 中 。 
然而 ， 随 着 问题 复杂 度 的 提升 ， 以 往 经 典 的 计算 模式 
面临 “维度 灾难 ”的 问题 。AI 技 术 则 助力 于 解决 科学 
计算 中 的 维度 灾难 问题 ， 将 不 同 尺 度 的 物理 模型 有 效 
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连接 起 来 ， 而 物理 模型 的 演绎 能 力 又 能 产生 更 多 数 
据 ， 从 而 推动 更 好 的 AI 解决 方案 。 在 此 过 程 中 ， 模 型 
参数 是 衡量 模型 复杂 度 和 能 力 的 重要 指标 ， 也 是 基础 
科学 研究 高 维 数据 计算 得 以 解决 的 重要 因素 。 人 参数 越 
多 ， 意 味 着 模型 能 够 处 理 更 多 的 数据 ， 学 习 更 多 的 领 
域 知识 ， 更 能 帮助 研究 者 探索 高 维 数据 的 内 在 规律 和 
关系 ， 继 而 能 够 解决 的 科学 研究 问题 的 复杂 度 也 越 
高 。 例 如 ， 在 生物 学 领域 ， ProGen 模 型 基于 12 亿 的 模 
型 参数 学 习 蛋 白质 中 氨基 酸 排 序 的 规律 ， 帮 助 研究 者 
快速 从 头 构建 全 新 的 蛋白 质 吕 9。 

(2) 模型 适 配 性 由 数据 表现 形式 决定 。 由 于 GPT 
模型 的 训练 、 应 用 都 是 自然 语言 序列 数据 ， 因 此 ， 在 
实验 计算 科学 问题 中 ， 只 有 与 自然 语言 相似 的 序列 领 
域 数据 才 可 以 用 GPT 模 型 进行 编译 ， 进 而 学 习 列 含 其 
中 的 高 维 复杂 知识 。 典 型 的 领域 序列 数据 有 : D 领域 
论文 、 专 利 数 据 是 天 然 的 自然 语言 数据 。 例 如 ， 
Chem-GPT 基于 开源 的 GPT 代 码 ,“ 阅 读 ” 近 50 万 的 
化 学 论文 ， 可 以 基于 学 习 到 的 论文 知识 自动 回答 研究 
者 提出 的 化 学 问题 ， 甚 至 可 以 给 出 某 化 合 物 合成 的 实 
验方 案 ， 并 高 效 完成 化 合 物 的 研发 。 此 外 ， 还 有 基于 
4 000 亿 字符 训练 的 生成 式 专 利 语言 模型 一 一 
PatentGPT-J-6BP?, JAF A aye jn e Fill AN Al] BER E s 
QD 生物 大 分 子 ， 尤 其 是 蛋白 质 ， 可 以 看 成 是 用 遗传 密 
码 撰写 的 语句 ， 具 有 更 为 复杂 的 关联 知识 。 以 “生物 
版 ChatGPT” 的 ProGen 模 型 为 例 ， 通 过 学 习 氨 基 酸 如 
何 组 合成 2.8 亿 个 现 有 蛋白质 的 “语法 ”， 学 习 到 了 和 蛋 
白质 中 氨基 酸 排序 的 规律 及 其 与 蛋白 结构 和 功能 的 关 
系 ， 进 而 可 从 头 开 始 生成 跨 多 个 家 族 和 功能 的 人 造 全 
AE A a! 

2.2.2 原理 驱动 视角 下 的 GPT 模 型 应 用 边界 

(1) 突破 实验 计算 领域 的 研究 边界 。 当 模型 参数 
超过 临界 值 ，GPT 模 型 将 突破 实验 计算 领域 中 的 研究 
问题 边界 ， 表 现 出 一 定 的 “涌现 性 ”。AI 大 模型 领域 
的 “涌现 性 ”， 通 俗 性 表述 是 在 小 规模 模型 中 不 存在 ， 
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4H d B AY Ss ER s B BRI K 0E p FF YE RS RE 
JPH, HOHE TERR AIR A BCRP ITS AE, TAE 
由 模型 的 多 层 结构 和 参数 之 间 的 相互 协同 作用 自发 产 
生 的 呈 。 根 据 Chung 等 中 学 者 的 研究 ， 模 型 参数 规模 
在 大 于 62 亿 的 情况 下 ， 可 涌现 出 之 前 较 小 模型 不 具备 
的 能 力 ， 模 型 能 力 会 完成 从 量变 到 质变 的 飞跃 ， 呈 现 
出 惊人 的 爆发 式 增长 。 此 外 ， 大 模型 的 涌现 能 力 还 存 
在 一 些 悬 而 未 决 的 问题 ， 如 是 什么 控制 了 哪些 能 力 会 
涌现 ? 如 何 控制 模型 涌现 理想 的 能 力 并 确保 不 理想 的 
能 力 永 不 涌现 ?也 有 研究 对 大 模型 的 “涌现 力 ” 提 出 
质疑 ， 认 为 只 是 人 为 选择 度量 指标 的 结果 ， 当 评价 指 
标 换 成 更 为 连续 、 平 滑 的 度量 指标 之 后 ， 涌 现 现 象 就 
不 那么 明显 了 中, 但 目前 绝 大 多 数 研究 支持 大 模型 涌 


PL A) AI Physicist 模 型 ri)， 但 这 种 经 由 训练 而 来 的 
AI 系统 ， 更 像 是 一 个 死记 人 硬 背 学 习 物 理 课 本 的 学 生 ， 
他 知道 每 个 问题 的 正确 答案 ， 前 提 是 这 个 问题 在 书 里 
出 现 过 ， 但 这 并 不 是 真正 的 科学 创新 ! 朱 迪 亚 。 珀 尔 
的 研究 提示 引进 因果 结构 模型 研究 ， 通 过 2 种 研究 进 
路 的 互补 ， 形 成 功能 一 结构 深度 融合 的 智能 系统 或 许 
是 新 的 研究 方向 。@ AI 模型 的 黑箱 工作 机 制导 致 
GPT 模 型 尚 不 具备 理论 的 可 解释 能 力 。 哲 学 家 卡尔 。 
波 普尔 指出 ， 科 学 家 们 寻求 的 不 是 高 度 可 能 的 理论 而 
是 解释 ， 即 强大 而 高 度 不 可 能 的 理论 。 然 而 ，GPT 模 
型 仍然 是 一 种 基于 神经 网 络 的 黑箱 模型 ， 不 能 解释 其 
内 部 的 工作 机 制 ， 其 表现 出 来 的 “智能 ”也 并 非 类 似 


现 性 的 存在 。 总 之 ， 由 于 涌现 现象 的 难以 预测 性 和 不 
确定 性 ， 需 要 谨慎 地 处 理 涌现 结果 ， 并 进一步 验证 和 
分 析 其 输出 结果 。 

(2) 尚未 到 达 理 论 推导 的 研究 边界 。 虽 然 GPT 类 
模型 在 实验 计算 科学 问题 上 表现 得 非常 出 色 ， 甚 至 能 
够 通过 图 灵 测 试 ， 但 它 尚 不 能 自主 进行 理论 推导 的 科 
学 人 研究 任务 。 在 “AI 笛 卡尔 ”模型 的 研究 中 ， 认 为 
ChatGPT 的 大 型 语言 模型 逻辑 能 力 有 限 ， 尚 不 能 从 公 
理化 的 知识 和 实验 数据 中 对 自然 现象 模型 进行 原理 性 
的 推导 后。 针对 这 个 问题 ， 主 要 从 两 个 角度 分 析 : 
(D 理论 推导 的 核心 能 力 是 需要 理解 因果 ， 而 GPT 模 型 
表现 出 来 的 “智能 ”仅仅 是 源 于 数据 拟 合 。AI 科 学 家 
朱 迪 亚 。 珀 尔 认为 理解 来 源 于 因果 模型 ， 而 非 源 于 数 
据 拟 合 。ChatGPT 仅仅 依赖 于 大 量 文 本 数据 进行 预 训 
练 和 微调 ， 缺 乏 对 真实 世界 的 直接 观察 和 经 验 ， 难 以 
判断 事件 的 因果 关系 。 它 表现 出 来 的 “智能 ”仅仅 是 
来 自 人 类 语料库 里 已 有 的 内 容 ， 当 问题 在 语料库 中 不 
存在 人 类 创作 的 答案 时 ，ChatGPT 智 能 系统 便 是 “无 
解 "。 然 而 ， 对 于 理论 科学 来 说 ， 最 重要 的 是 推导 出 
新 的 能 够 解释 这 个 世界 的 理论 公式 。 尽 管 AI 大 模型 可 
以 产生 正确 的 “科学 ”预测 〈 例 如 可 以 预测 小 球 运动 
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于 人 脑 结 构 和 认 知 机 制 ， 更 像 是 一 个 模式 匹配 统计 引 
擎 ， 输 出 的 仅 是 统计 学 上 的 可 能 性 ， 这 与 现实 情况 下 
人 类 的 思考 模式 是 大 不 相同 的 。 人 脑 只 需要 少量 信息 
即 可 运作 ， 因 为 它 不 寻求 推断 数据 点 之 间 的 直接 相关 
性 ， 而 是 寻求 解释 。 也 就 是 说 ， 目 前 的 GPT 模 型 核心 
还 是 描述 和 预测 ， 输 出 结果 总 还 是 缺乏 了 强 有 力 的 文 
撑 ， 不 能 像 人 脑 一 样 进行 蜂 领 域 、 跨 模 态 的 理论 
推导 。 
2.3 创新 主体 迁移 及 其 影响 

分 析 上 述 内 容 中 的 案例 可 以 发 现 ， 产 业界 正 逐 渐 
成 为 GPT 助力 基础 科学 研究 的 核心 主体 之 一 。 究 其 原 
因 是 GPT 模 型 在 科学 研究 中 的 参与 实现 了 知识 迁移 ， 
同时 降低 了 知识 获取 门槛 ， 由 此 削弱 了 学 术 界 的 主导 
地 位 ; 同时 产业 界 凭借 其 充足 的 AI 技 术 发 展 资源 ,使 
其 成 为 GPT 技 术 创新 高 地 ， 进 而 有 望 成 为 基础 科学 研 
究 的 核心 创新 主体 之 一 。 
2.3.1 作为 开源 知识 集成 库 ，GPT 模 型 助力 知识 迁移 、 

降低 知识 获取 门槛 

创新 主体 迁移 的 根本 原因 是 大 量 数据 训练 过 的 神 
经 网 络 变 为 一 种 新 的 数据 、 知 识 存 储 模型 ，GPT 类 模 
型 更 是 成 为 一 个 拥有 丰富 知识 与 经 验 的 “专家 ”， 一 
个 开源 知识 集成 库 ， 由 此 实现 了 不 同 语种 间 的 知识 迁 
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移 ， 同 时 降低 了 知识 获取 的 门槛 。 一 方面 ， 模 型 的 训 
练 语 料 是 全 球 各 语种 的 知识 库 ， 大 多 以 问答 的 形式 开 
源 给 模型 的 使 用 者 ， 使 全 球 任何 语种 的 人 都 能 使 用 大 
模型 来 学 习 不 同 语言 的 知识 ， 实 现 不 同 语言 间 的 知识 
迁移 ; 另 一 方面 ， 由 于 GPT 类 模型 成 为 一 种 新 的 数 
据 、 知 识 存储 模型 ， 让 信息 检索 方式 从 关键 字 检 索 转 
变 成 具备 完整 语义 的 自然 语言 人 机 交互 检索 ， 以 智能 
问答 的 方式 改变 了 原 有 的 知识 查询 与 获取 的 方式 ， 更 
甚 者 是 对 科研 方式 的 颠覆 。 简 言 之 ，GPT 类 大 模型 的 
存在 将 会 降低 科学 研究 壁垒 ， 吸 引 更 多 的 学 生 、 产 业 
参与 到 科学 研究 中 来 。 

(1) 在 大 模型 普及 的 时 代 ，GPT 大 模型 可 以 作为 
辅助 教学 和 学 习 的 工具 ， 支 持 各 水 平等 级 的 学 生 进 行 
个 性 化 、 自 适应 学 习 ， 并 协助 其 参与 到 基础 科学 研究 
中 四 。 例 如 ， 有 研究 测试 了 GPT-4 在 物理 教育 评 佑 工 
有 具 “力学 概念 测试 FCI” 中 的 表现 情况 ,发现 GPT-4 
以 28 分 (满分 30 分 ) 的 成 绩 展示 了 其 在 物理 学 教育 
中 的 潜力 B0。 然 而 ，GPT 虽 然 可 以 在 通 识 与 专业 知识 
上 提供 极 大 帮助 ， 但 这 代替 不 了 创新 性 科研 人 才 所 必 
需 的 批判 性 思维 、 好 奇 心 、 想 象 力 、 经 历 与 经 验 ， 这 
些 特质 恰恰 是 受过 专业 科研 训练 的 人 所 特有 的 优势 ， 
也 是 人 机 协同 科研 场景 中 学 者 发 挥 优势 、 寻 找 定位 的 
WER 

(2) 科学 研究 壁垒 的 降低 ， 吸 引 了 更 多 的 企业 和 
非 学 术 机 构 参 与 到 基础 科学 研究 中 。 例 如 ,深圳 晶 泰 
科技 通 有 限 公 司 过 训练 蛋白 质 类 的 Protein GPT 模 型 ， 
赋 能 实验 机 器 人 的 生物 研发 ， 使 其 研发 重心 逐渐 从 
“实验 机 器 人 ”转向 具备 一 定 生物 领域 知识 的 “实验 
BER” ©, 

2.3.2 充足 的 GPT 技 术 发 展 资源 ， 助 力 产 业界 有 望 成 

为 基础 科学 研究 的 核心 创新 主体 之 一 

GPT 模 型 作为 开源 知识 集成 库 的 存在 ， 降 低 了 知 
识 获取 、 科 学 研究 的 壁垒 ， 一 定 程 度 上 削弱 了 学 术 界 
在 基础 科学 研究 中 的 主导 和 控制 地 位 。 而 产业 界 凭借 
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其 充足 的 AI 技 术 发 展 资源 ， 即 算 力 、 数 据 、 场 景 、 人 
和 资本 等 优势 的 有 机 融合 ， 使 得 人 工 智 能 驱动 的 科学 
人 研究 (AI for Science) 正在 回 产 业界 倾斜 。 

从 产业 界 对 于 AI 技术 的 人 才 、 算 力 和 资金 等 支配 
性 资源 投入 上 看 5，AI 高 科技 企业 资源 已 远 远 超 过 学 
术 研 究 机 构 。2020 年 ， 约 70% 的 AI 领域 博士 进入 产 
业界 ; 2021 年 ， 产 业界 模型 算 力 平均 比 学 术 界 模型 大 
29 倍 ; 2021 年 ， 全 球 产 业界 花费 了 超过 3 400 亿美 元 
用 于 AI， 远 远 超过 了 公共 政策 投资 。 而 这 种 关键 性 资 
源 的 投入 正 转化 为 日 益 突出 的 AI 人 研究 成 果 中 ， 如 源 于 
产业 界 的 相关 GPT 模 型 成 果 有 初创 公司 Profluent 人 研发 
的 ProGen 模 型 "4。 从 GPT 大 模型 扩展 到 整个 AI 研究 
领域 ， 产 业界 还 研发 ， 甚 至 是 掌控 着 AI 模型 开发 工具 
(例如 PyTorch 和 TensorFlow) 、 促 进深 度 学 习 模 型 高 
效 训练 的 硬件 (例如 张 量 处 理 单元 TPU) 和 可 公开 访 
问 的 预 训练 模型 (例如 Open Pretrained Transformer $ 
型 )。 也 就 是 说 ， 在 数据 密集 型 和 计算 密集 型 的 基础 
科学 领域 ， 如 和 蛋白质 结构 生成 、 化 合 物 反应 路 径 生 
成 、 实 验方 案 自 动 生成 、 高 分 子 材料 效 选 等 领域 ， 产 
业界 对 AI 算法 研究 的 支配 也 将 赋予 产业 界 塑造 基础 研 
究 方向 的 力量 。 

该 现状 对 于 产业 界 和 学 界 的 学 科研 究 定位 也 将 产 
生 相 关 影 响 。 一 方面 ， 产 业界 商业 动机 的 存在 ， 促 使 
他 们 将 GPT 等 AI 模型 更 多 地 应 用 到 以 利润 为 导向 的 研 
究 领 域 ， 如 医药 、 材 料 等 实验 计算 领域 中 的 科学 问题 
场景 中 。 即 计算 密集 型 领域 科学 问题 的 突破 将 慢 慢 由 
产业 界 和 学 术 界 共同 突破 得 来 ,类似 于 “ 巴 斯 德 象 
HR" RB ( 巴 氏 杀菌 的 应 用 研究 和 基础 研究 之 间 存 
在 类 似 的 重 于 )。 然 而 ， 这 将 潜在 引导 社会 发 展 方向 ， 
并 对 低 收 入 水 平 国 家 的 学 术 研 究 形成 壁垒 。 另 一 方 
面 ， 对 于 一 些 根 本 性 的 基础 研究 ， 如 生命 的 起 源 、 宇 
宙 大 爆炸 、 量 子 纠缠 的 形成 机 制 等 理论 性 研究 问题 ， 
还 需要 高 等 院 校 与 科研 机 构 作 为 最 主要 的 核心 创新 
主体 。 
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3 天 于 我 国 基 于 GPT 技术 发 展 基础 科学 研究 
的 建议 


AI 大 模型 通过 重 构 人 类 知识 检索 、 运 用 的 基本 方 
式 ， 成 为 一 种 新 的 生产 力 。 然 而， 由 于 GPT 大 模型 具 
有 重 投入 、 长 周期 、 快 迭代 、 高 风险 等 特点 ， 决 定 了 
GPT 大 模型 在 基础 科学 人 研究 中 的 竞争 是 大 国 游戏 。 在 
这 场 竞赛 中 ， 中 国正 处 于 奋起 直 追 的 关键 时 期 ， 琢 待 
找到 高 质量 发 展 的 新 路 。 基 于 上 述 现状 和 影响 ,提出 
以 下 3 方面 建议 。 

(1) 投资 研发 国家 自主 可 控 、 受 知识 产权 保护 的 
数据 与 计算 平台 ， 为 GPT 技术 推动 基础 科学 发 展 提供 
基础 设施 建设 。 纵 观 全 球 ， 有 关 促 使 “AI 推 动 基础 科 
学 研究 ”的 政策 调控 陆续 出 现 。 从 GPT 的 实现 要 素 
看 ， 主 要 从 数据 、 平 台 方 面 加 大 资源 投入 。@ 建立 高 
质量 科学 数据 集 势 在 必 行 。 大 模型 的 “智商 ”取决 于 
被 训练 的 数据 量 和 知识 密度 。 据 了 解 ， 在 GPT-3 训练 
时 语 料 清洗 前 为 45 TB， 清 洗 后 570 GB, iX Xon 
ChatGPT 模 型 训练 时 对 数据 清洗 质量 具有 极致 的 要 求 。 
然而 ,我 国 目前 高 质量 的 、 自 主 可 控 的 科学 数据 库 较 
少 。 可 行路 径 之 一 为 自动 抽取 已 发 表 科技 成 果 中 的 科 
学 数据 ， 结 构 化 存储 在 数据 库 里 ， 将 其 打造 成 AI for 
Science 时 代 下 重要 的 生产 要 素 和 战略 资产 。@ 将 AI 
数据 计算 平台 打造 成 科研 过 程 中 的 基础 设施 ， 加 大 硬 
件 和 经 费 支 持 。 建 议 打 造 数据 计算 通用 平台 ， 骨 人 科 
研 过程 。 通 用 的 意义 在 于 使 开发 人 员 可 以 在 此 基础 上 
解决 更 多 有 针对 性 的 问题 ， 快 速 部 署 到 任何 学 科 领 
域 。 此 外 ， 各 地 分 散 式 建设 智 算 中 心 ， 将 全 国 统一 的 
AI 算 力 市 场 和 服务 市 场 肢 解 为 一 个 个 孤立 破碎 的 小 市 
场 ， 消 解 了 我 国 大 国 大 市 场 的 优势 。 只 有 依靠 大 型 科 
技 公司 或 研发 机 构 “ 炼 大 模型 "， 才 能 逐步 弥补 中 美 
在 模型 层面 的 差距 。(@@) 对 于 开源 的 AI 算法 进行 产业 
化 时 ， 还 需要 注意 到 知识 产权 的 风险 。 例 如 ， 深 度 神 
经 网 络 算法 的 基础 架构 (如 Transformer, Attention ) 
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已 被 谷歌 申请 专利 ， 基 于 这 些 模 型 架构 设计 的 产品 存 
在 知识 产权 风险 ， 或 将 阻碍 我 国 数 智 科 研 的 产业 化 。 
因此 ， 构 建 我 国 自主 可 控 的 安全 的 替代 技术 尤为 
重要 。 

(2) 从 产 学 研 模式 、 青 年 人 才 资 源 和 知识 跨 领 域 
流动 3 方面 ， 为 Al 推动 基础 科学 发 展 营造 可 持续 健康 
S. O 大 力 提 倡 产 学 研 模 式 ， 让 参与 主体 各 显 本 
领 ， 保 证 AI 技术 健康 发 展 导向 。 高 校 、 科 研 机 构 拥 有 
培养 研发 人 才 的 责任 和 优势 ， 更 关注 科学 原理 ; 企业 
则 拥有 算 力 、 资 金 和 平台 建设 能 力 ， 对 解决 工程 问题 
具有 独特 优势 ， 可 以 集中 人 力 和 财力 进行 攻关 。 将 高 
校 、 科 研 机 构 开 发 的 优势 与 企业 的 产品 化 优势 有 效 结 
合 ， 实 现 产 学 研 各 方 的 资源 共享 ， 优 势 互补 ， 将 健康 
推动 我 国 基础 科学 的 发 展 。@ 引 人 育 人 ， 充 分 培养 吸 
纳 海内 外 青年 人 才 ， 保 证 人 才 资 源 的 不 竟 供 应 。 青 年 
人 才 是 AI 技 术 及 基础 科学 发 展 最 为 宝贵 的 资源 。 
ChatGPT 团队 的 平均 年 龄 仅 32 岁 ， 凭 借 对 AI 技 术 的 兴 
趣 和 信仰 ， 便 引爆 全 球 新 一 轮 AI 技 术 浪 潮 。 同 时 ， 该 
团队 中 华人 学 者 是 一 支 重 要 的 科技 创新 力量 。 因 此 ， 
鼓励 国外 顶尖 学 者 走 进来 、 国 内 学 者 走出 去 ， 激 发 、 
培养 青年 人 的 科技 兴趣 和 信仰 ， 对 促进 国内 前 沿 科技 
创新 发 展 也 具有 重要 意义 。@@ 促进 知识 跨 领域 流动 ， 
推动 AI 技术 与 基础 科学 发 展 有 机 结合 。 为 保障 AI 技 
术 赋 能 基础 科学 研究 的 可 持续 性 ， 我 国 可 考虑 出 台 相 
关 跨 领域 知识 交流 政策 ， 鼓 励 AI 赋 能 下 的 基础 科学 人 研 
究 项 目 等 措施 。 例 如 ，2023 年 3 月 27 日 ， 科 学 技术 部 
会 同 国家 自然 科学 基金 委 启 动 “ 人 工 智能 驱动 的 科学 
研究 ”专项 部 署 工 作 ， 鼓 励 计算 机 、 数 据 科 学 、 材 
料 、 化 学 、 生 物 等 学 科 的 交叉 融合 ， 重 构 知 识 体系 四 。 

(3) 鼓励 人 机 协作 与 科研 诚信 监管 并 重 ， 为 Al 推 
动 基础 科学 发 展 营造 公开 透明 的 环境 。 当 前 ， 科 学 研 
究 不 可 避免 地 正 进入 人 机 协作 的 时 代 ， 微 软 公司 更 是 
认为 GPT-4 是 通用 AI 的 火花 四。 随 着 相关 GPT 技 术 产 
品 在 科研 领域 展开 应 用 ， 相 关 工 具 是 否 会 削弱 研究 人 
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员 的 研究 能 力 和 地 位 成 为 主要 问题 之 一 。 一 方面 ， 类 
似 于 Alpha Fold 模型 六、RoseTTAFold 模型 中 这 样 
“把 一 个 公认 的 具有 重大 意义 的 科学 难题 (蛋白 质 结 
构 生 成 ) 突进 到 几乎 破解 地 步 ”的 情况 ， 展 现 了 AI 工 
具 拥 有 通过 图 灵 测 试 、 进 而 获得 诺 贝 尔 奖 的 潜力 27; 
另 一 方面 ,我们 还 需要 清醒 地 认识 到 当前 的 AI for 
Science 模 型 ， 包括 最 新 的 GPT-4， 存 在 着 生成 错误 文 
本 人 信息、 逻辑 推理 和 因果 推断 的 表现 能 力 较 低 等 问 
题 ， 因 此 它们 尚 不 能 算是 一 个 完美 的 科研 工具 。 总 的 
来 说 ，GPT 类 大 模型 的 应 用 价值 将 在 文本 处 理 等 方面 
帮助 学 者 处 理 初 级 科研 任务 ， 或 在 高 维 数据 建 模 方面 
帮助 学 者 处 理科 研 计算 任务 ， 但 其 应 用 效果 还 取决 于 
学 者 的 认 知 水 平装 。 此 外 ， 针 对 “ChatGPT 自动 撰写 
论文 ”的 问题 ， 国 内 外 知名 期 刊 大 多 持 反 对 态度 。 
Science 明确 表示 禁止 将 ChatGPT 列 为 合 著者 ， 且 不 允 
许 在 论文 中 使 用 ChatGPT Æ AA; Nature R 
示 可 以 在 论文 中 使 用 大 型 语言 模型 生成 的 文本 ,但 不 
能 将 其 列 为 论文 合 著者 ， 只 能 在 方法 或 致谢 中 表 
9j". SRT, LA ChatGPT 为 代表 的 通用 型 AI 介入 科研 
生活 已 成 定局 ， 除 了 “坚持 人 工 验证 ”“ 制 定 问 责 规 
则 ”“ 投 资 真正 开放 的 GPT 模 型 ”之 外 ， 还 应 加 快 构 
建 公 开 透 明 的 “AI 文本 探测 器 ” ， 自 动 识别 AI 生成 的 
文本 ， 从 而 使 整个 科研 生态 受益 。。 
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Impact analysis of GPT technology revolution on fundamental 


scientific research 


SUN Mengge'? HAN Tao" WANG Yanpeng" HUANG Yuxin LIU Xiwen'? 
(1 National Science Library, Chinese Academy of Sciences, Beijing 100190, China; 
2 Department of Information Resources Management, School of Economics and Management, University of Chinese Acad- 
emy of Sciences, Beijing 100190, China) 
Abstract The generative large model GPT represented by ChatGPT is developing rapidly, which has aroused extensive discussion in 
academic circle and the industry and has an incalculable impact on foundational scientific research development. The study first sorts 
out the development of the GPT technological revolution, and discusses the new changes brought about by this technology in scientific 
research. Then, based on the three aspects of application status, core principles and innovation subjects, the impact of the GPT 
technological revolution on basic scientific research and its development suggestions for China are discussed. The study believes that 
GPT technology can certainly play a positive role in knowledge production, improve scientific research efficiency, and even promote 
scientific research paradigm changes, but it may also cause scientific research misconduct, weaken research credibility, and amplify the 
inherent bias of the Internet and other issues. Therefore, the study discusses how to develop Chinese foundational scientific research 
based on GPT technology. On the one hand, investing in the research and development of data and computing platforms that are 
independently controllable by the country and protected by intellectual property rights. On the other hand, emphasizing human- 
computer collaboration and scientific research integrity supervision to create an open and transparent environment for Al development. 
In short, this study aims to provide policymakers and front-line researchers with an understanding perspective on the impact of GPT 
technology on fundamental science, promote the rational use of GPT technology, and provide a reference for the healthy development 


of the future academic ecology. 
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